HADOOP
Flujo de información de analítica de
datos
Flujo de información en machine
learning
Componente
Descripción
Avro
Framework
para transformar datos en un formato binario compacto
Flume
Herramienta de flujo de datos para mover datos de transmisión a Hadoop
HBase
Una base de datos en columnas que utiliza HDFS para su almacenamiento
HCatalog
Un servicio que proporciona una vista relacional de los datos que almacena en HDFS
Hive
Un almacén de datos distribuido para datos HDFS que proporciona una capa similar a SQL para estos datos
Hue
Una interfaz administrativa y de usuario que le permite buscar archivos HDFS, ejecutar consultas de
Pig y Hive y
programar flujos de trabajo a través de
Oozie
Kafka
Framework
para paso de mensajes que maneja grandes cantidades de tráfico de datos en tiempo real
Mahout
Una biblioteca de algoritmos de aprendizaje automático implementados en MapReduce
Oozie
Una herramienta de programación de trabajos
Pig
Framework
para analizar grandes conjuntos de datos que le permiten crear datapipes
Sqoop
Una herramienta de movimiento de datos que mueve datos entre HDFS y bases de datos relacionales
Storm
Una biblioteca de mapeo relacional de objetos que admite el procesamiento de flujo en tiempo real
Tez
Un marco de procesamiento de datos para el procesamiento por lotes que también proporciona capacidades de
consulta interactiva
ZooKeeper
Un servicio de coordinación utilizado por aplicaciones distribuidas como Hadoop,
HBase, Storm, Hive y Kafka